大型语言模型尽管功能强大,但往往会以令人惊讶和难以预测的方式失败。由于它们是基于大量网络规模的数据进行训练的,因此评估它们对语言的真正“理解”尤其具有挑战性。因此,我们利用构造语法 (CxG) 构建了一个评估系统,以系统地评估 LLM 中的自然语言理解 (NLU),该评估系统可以洞悉语言元素(称为构造 (Cxns))所捕获的含义。CxG 非常适合此目的,因为它为构建有针对性的评估集提供了理论基础。这些数据集经过精心构建,包含不太可能出现在预训练数据中的示例,但直观且易于人类理解,从而实现更有针对性和更可靠的评估。我们的实验重点关注下游自然语言推理和推理任务,通过将 LLM 对通过 8 个独特 Cxns 传达的底层含义的理解与人类的理解进行比较。结果表明,虽然 LLM 展示了一些结构信息知识,但即使是包括 GPT-o1 在内的最新模型也难以理解这些结构信息所传达的抽象含义,正如测试句子与其预训练数据不同的情况下所证明的那样。我们认为,这种情况可以更准确地测试真正的语言理解能力,凸显了 LLM 语义能力的关键局限性。我们将我们的新数据集和相关实验数据(包括提示和模型响应)公开。
主要关键词
![arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日PDF文件第1页](/bimg/a/ade7a06193bc672c802ca010c08a7fc697495945.webp)
![arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日PDF文件第2页](/bimg/1/1400be5f8f8907f18f659d6104ef8c0e1234e33c.webp)
![arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日PDF文件第3页](/bimg/2/29478589b3ca92e9a9d8482503d7a7ad0c72f844.webp)
![arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日PDF文件第4页](/bimg/9/93776ef41abf6209c8e3012ff2bf0e744bd48098.webp)
![arXiv:2501.04661v1 [cs.CL] 2025 年 1 月 8 日PDF文件第5页](/bimg/c/c2e3584eba34b800ee6f8f976037d03ca98a0161.webp)
